분류 분석 (문단 편집)

=== 앙상블분석 ===
ensemble-based classification

위에서 줄곧 설명한 것처럼, 어떤 분류기의 편의를 낮추려고 애쓰다 보면 필연적으로 분산이 증가하는 문제가 발생하는데, 이로 인해 발생하는 과적합 문제는 데이터 분석가들을 괴롭혀 왔다. 특히나 의사결정나무는 강력하고도 디테일한 분류 알고리즘이기 때문에, 그것이 분산으로 인해 바람 속 갈대처럼 '흔들리는' 문제는 의사결정나무를 쓰려는 분석가들을 망설이게 만들곤 했다. 그 와중에 튀어나온 아이디어가 하나 있었는데, 저편의 고분산의 불안정한 분류기를 안정적으로 사용하고자 한다면, 차라리 그런 분류기들을 한꺼번에 여러 개 모아서 쓰는 게 어떻겠냐는 것이었다. '''주어진 데이터에서 편의가 낮은 여러 개의 분류 결과들을 얻어내고서 그 분류 결과들을 잘 조합해 쓴다면, 그만큼 분산이 낮아질 것이니 결과적으로는 저편의 저분산의 이상적인 분류에 최대한 가까워질 수 있겠다'''는 논리였다. 바로 여기서 앙상블분석이 탄생했다.

앙상블분석의 가장 기본적인 [[통계학]]적 근거는 바로 '''[[부트스트랩]]'''(bootstrap)에 있다. 이는 표본으로부터의 재표집(resampling)으로, 예측의 편의에는 영향을 주지 않으나 분산을 감소시키는 효과가 있다. 이는 즉 훈련용 데이터로 어떤 데이터가 뽑히느냐에 따라 분류 결과가 함께 변동하는 불안정성을 상쇄할 수 있다는 의미다. 앙상블분석이 설득력을 갖기 위해서는 몇 가지 전제들이 뒷받침되어야 한다. 우선, 앙상블분석의 논리가 '불안정한 분류기의 저편의성과 부트스트랩의 저분산성을 합치자' 는 데 있는 만큼, '''편의가 낮으면서 불안정한 분류기들을 조합'''할 때 의미가 있다. 또한 단일의 분류기를 사용할 때의 오류율(error rate)이 높아도 '''0.5 이하'''여야 한다.

아무튼, 부트스트랩으로 앙상블분석을 하기 위해서는 먼저 데이터 세트로부터 '''동일크기 무작위 복원재표집'''을 실시해야 한다. 이렇게 만들어지는 여러 표본들을 바탕으로 분류를 실시하고, 각각의 모델링이 나타내는 분류 결과들을 하나로 결합함으로써 최종적인 분류를 내놓는 것이다. 이때 재표집하는 표본의 크기는 원본 데이터의 약 63% 정도 크기로 할 것이 권고된다. 완전히 무선적인 복원재표집이므로 한 데이터가 여러 차례 표집될 수도 있고, 단 한 번도 표집되지 못하는 경우도 존재할 수 있다. 이상의 절차를 '''배깅'''(bagging)이라고 한다. 이때 각 분류기가 불안정할수록 훈련용 데이터의 특성으로 인해 발생하는 분산을 감소시키는 배깅의 효과는 커지며, 애초에 분류기 자체가 안정되어 있다면 배깅은 큰 개선효과가 없어서 앙상블분석을 하는 의미가 없다.

이보다 더 개선된 방법으로 '''부스팅'''(boosting)이 있다. 부스팅의 가장 큰 원칙은 '''예측력이 약한 분류모델들을 결합하여 강한 모델을 형성'''하는 데 있다. 이쪽에서는 배깅과 마찬가지로 재표집의 논리를 따르지만, 훈련용 데이터를 면밀히 살피면서 잘못된 분류가 발생하는 데이터에 더욱 집중하는 반복적 절차이다. 마치 공부하는 학생이 [[오답노트]]를 만들어서 두세 번씩 반복하여 풀어보듯이, 부스팅은 모든 훈련용 데이터에 가중치를 할당하되 처음에는 1/N의 똑같은 가중치를 매기고 라운드를 시작하지만 오분류 데이터에는 가중치를 높이고 정분류 데이터에는 가중치를 줄이게 된다. 결과적으로 '''라운드가 반복됨에 따라 앞에서 오분류됐던 데이터는 재표집될 가능성이 증가한다.''' 결과적으로 모든 데이터가 정분류되면 훈련을 종료하고 각 단일분류기들의 가중평균을 산출하는 방식. 딱 봐도 강력한 학습법으로 보이지만 오히려 지나치게 강력해서 오분류에 가중치를 필요 이상으로 과도하게 준다는 지적도 있다. 틀린 문제를 다시 푸는 것도 필요하지만 맞춘 문제도 다시 살펴볼 필요가 있다는 것.

오늘날 앙상블분석에서 큰 인기를 얻고 있는 기법은 이보다 더 발전된 '''랜덤 포레스트'''(random forest) 기법이다. 여기서는 재표집의 논리를 따르는 배깅에서 더 나아가, 각각의 의사결정나무들이 상호독립의 관계가 되게 하는 '''무상관'''(decorrelated)의 원칙을 채택한다. 이때 의사결정나무들은 가능한 한 최대한으로 깊게 성장시킨 것으로, 저편의 고분산이 극명하게 나타나는 불안정하기 짝이 없는 분류기이다. 랜덤 포레스트 기법은 표본도 재표집할 뿐만 아니라 수많은 의사결정나무들의 '숲' 속에 존재하는 분할기준(노드)들까지도 무선추출한다. 의사결정나무에 존재하는 모든 노드에서 속성들을 무선추출한 후 그 불순도가 최대한 감소되는 속성만을 선택한다면, 약한 예측력을 갖는 다수의 분할기준들 사이에서 강한 예측력을 갖는 소수의 분할기준들이 잘 골라질 수 있다. 이때 일반화 오류를 추정하기 위한 추정량으로는 '''OOB'''(out-of-bag)라는 것이 있으며, 이것은 별도로 데이터를 분할할 필요 없이 훈련중에 알아서 추정치가 계산되어 나온다는 장점이 있다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

분류 분석 (문단 편집)

캡챠